Hemos visto modelos antes que podían tomar una oración y . También hemos visto otros aprendiendo conceptos específicos como un objeto o un estilo particular. La semana pasada, Meta publicó el que cubrí, que le permite generar un video corto también a partir de una oración de texto. Los resultados aún no son perfectos, pero el progreso que hemos logrado en el campo desde el año pasado es simplemente increíble. Esta semana damos otro paso adelante. Aquí está DreamFusion, un nuevo modelo de Google Research que puede comprender una oración lo suficiente como para generar un modelo 3D de la misma. Puedes ver esto como o pero en 3D. ¡¿Cuan genial es eso?! Realmente no podemos hacerlo mucho más fresco. Pero lo que es aún más fascinante es cómo funciona. Vamos a sumergirnos en él...
Referencias
►Lea el artículo completo:
►Poole, B., Jain, A., Barron, JT y Mildenhall, B., 2022. DreamFusion: Text-to-3D usando 2D Diffusion. preimpresión de arXiv arXiv:2209.14988.
►Sitio web del proyecto:
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):
Transcripción del vídeo
0:02 hemos visto modelos capaces de tomar una 0:04 oración y generar imágenes y luego otras 0:07 enfoques para manipular lo generado 0:09 imágenes aprendiendo conceptos específicos 0:11 como un objeto o un estilo particular 0:13 la semana pasada meta publicó el make a 0:16 modelo de video que cubrí que permite 0:18 que generes un video corto también de 0:20 una oración de texto los resultados no son 0:22 perfecto todavía, pero el progreso que hemos hecho 0:24 en el campo desde el año pasado es sólo 0:26 increible esta semana hacemos otra 0:28 un paso adelante aquí está el sueño Fusion un nuevo 0:32 Modelo de investigación de Google que puede 0:34 entender una oración lo suficiente como para generar 0:36 un modelo 3D fuera de él puedes ver esto como 0:39 una difusión diurna o estable pero en 3D 0:41 qué bueno es que no podamos hacerlo mucho 0:44 más genial, pero lo que es aún más fascinante 0:46 así es como funciona, profundicemos en ello, pero 0:49 primero dame unos segundos para hablar 0:51 sobre un tema relacionado visión artificial 0:53 querrás escuchar eso si estás en 0:55 este campo también para este video estoy 0:57 asociación con encord en línea 1:00 plataforma de aprendizaje para visión artificial 1:01 Los datos son una de las partes más importantes. 1:04 de crear una visión artificial innovadora 1:06 modelo es por eso que la plataforma de codificación tiene 1:09 sido construido desde cero para hacer 1:10 la creación de datos de entrenamiento y 1:12 prueba de modelos de aprendizaje automático 1:14 más rápido de lo que nunca ha sido encord hace 1:17 esto de dos maneras primero lo hace 1:19 más fácil de gestionar anotar y evaluar 1:22 datos de entrenamiento a través de una gama de 1:24 herramientas de anotación colaborativa y 1:25 características de automatización en segundo lugar codificar 1:28 ofrece acceso a sus API de flujos de trabajo de control de calidad 1:31 y SDK para que pueda crear su propio 1:33 Las canalizaciones de aprendizaje activo se aceleran 1:35 desarrollo de modelos y mediante el uso de codificar 1:38 no necesitas perder el tiempo construyendo 1:39 sus propias herramientas de anotación que le permiten 1:41 enfóquese en obtener los datos correctos 1:44 tus modelos si eso suena interesante 1:46 por favor haga clic en el primer enlace a continuación para obtener 1:48 una prueba gratuita de 28 días de encode exclusivo 1:51 a nuestra comunidad 1:54 si has estado siguiendo mi sueño de trabajo 1:56 Fusion es bastante simple, básicamente usa 1:59 dos modelos que ya cubrí Nerfs y 2:02 uno de los modelos de texto a imagen en su 2:04 caso es el modelo imogen pero y tu 2:07 hará como difusión estable o Dolly 2:09 como sabes si has sido un buen 2:11 estudiante y vio los videos anteriores 2:12 Los nerfs son un tipo de modelo que se utiliza para renderizar 2:15 Escenas 3D generando Radiance neural 2:18 campo de una o más imágenes de un 2:21 objeto, pero entonces, ¿cómo se puede generar un 2:23 Representación 3D a partir de texto si el modelo Nerf 2:26 solo funciona con imagenes bien usamos 2:29 imagen la otra IA para generar imagen 2:31 variaciones de la que toma y por qué 2:34 ¿Hacemos eso en lugar de directamente? 2:36 generar modelos 3D a partir de texto porque 2:38 requerirá enormes conjuntos de datos de 3D 2:41 datos junto con sus asociados 2:43 subtítulos para que nuestro modelo sea entrenado 2:46 que va a ser muy dificil de tener 2:48 en su lugar, usamos un texto pre-entrenado para 2:50 modelo de imagen con datos mucho menos complejos 2:53 juntos y lo adaptamos a 3D para que 2:56 no requiere ningún dato 3D para ser 2:57 entrenado solo en una IA preexistente para 3:00 generar imágenes es realmente genial cómo 3:03 podemos reutilizar Tecnologías poderosas para 3:05 nuevas tareas como esta al interpretar 3:07 el problema de manera diferente, así que si empezamos 3:09 desde el principio tenemos un modelo Nerf 3:12 como expliqué en videos anteriores esto 3:14 tipo de modelo toma imágenes para predecir 3:17 los píxeles en cada nueva vista creando una 3:20 modelo 3D aprendiendo de pares de imágenes de 3:22 el mismo objeto con diferentes 3:24 puntos de vista en nuestro caso no empezamos 3:26 con imágenes directamente comenzamos con el 3:28 texto y muestra una vista aleatoria 3:30 orientación queremos generar una imagen 3:33 porque básicamente estamos tratando de crear un 3:35 Modelo 3D generando imágenes de todos 3:38 ángulos posibles que una cámara podría cubrir 3:40 mirando alrededor del objeto y adivinando 3:42 los píxeles colores densidades luz 3:45 Reflections Etc todo lo necesario para 3:48 haz que parezca realista, así comenzamos 3:50 con un título y agregue un pequeño ajuste a 3:52 dependiendo de la cámara aleatoria 3:54 punto de vista que queremos generar para 3:56 ejemplo podemos querer generar un frente 3:58 vista, por lo que agregaríamos la vista frontal a 4:01 la leyenda en el otro lado usamos el 4:03 mismo ángulo y parámetros de cámara para 4:05 modelo Nerf inicial no entrenado para 4:09 predecir la primera representación entonces 4:11 generar una versión de imagen Guiados por nuestro 4:13 subtítulo y renderizado inicial con agregado 4:17 ruido usando imagina nuestro texto pre-entrenado 4:20 al modelo de imagen que expliqué más 4:22 en mi imagen y video si tienes curiosidad 4:24 para ver cómo lo hace para que nuestra imagen y 4:26 el modelo se guiará por la entrada de texto 4:28 así como la representación actual de la 4:30 objeto con ruido añadido aquí añadimos 4:33 ruido porque esto es lo que la imagen y 4:36 módulo puede tomar como entrada necesita ser 4:38 parte de una distribución de ruido 4:40 entiende que usamos el modelo para generar 4:43 una imagen de mayor calidad agregar la imagen 4:45 utilizado para generarlo y eliminar el ruido 4:48 Agregamos manualmente para usar este resultado para 4:51 guiar y mejorar nuestro modelo Nerf para el 4:54 siguiente paso hacemos todo eso para mejorar 4:55 entender dónde en la imagen el Nerf 4:57 modelo debe centrar su atención en 4:59 producir mejores resultados para el siguiente paso 5:01 y lo repetimos hasta que el modelo 3D sea 5:05 lo suficientemente satisfactorio como para exportar 5:07 este modelo para mallar y usarlo en una escena 5:10 de su elección y ante algunos de ustedes 5:12 pregunta no, no tienes que volver a entrenar al 5:15 modelo de generador de imagen como dicen 5:17 bien en el papel solo actúa como un 5:19 crítico congelado que predice el espacio de la imagen 5:21 ediciones y voira asi es como sueno Fusion 5:25 genera representación 3D a partir de entradas de texto 5:28 si desea tener una más profunda 5:30 comprensión del enfoque tienen una 5:32 mira mis videos cubriendo nervios y 5:34 Imogen también te invito a leer sus 5:36 documento para obtener más detalles sobre este 5:39 método gracias por ver todo 5:41 video y nos vemos la próxima semana con 5:44 otro papel increíble